<?xml version="1.0" encoding="ISO-8859-1"?>
<metadatalist>
	<metadata ReferenceType="Thesis">
		<site>mtc-m21c.sid.inpe.br 806</site>
		<holdercode>{isadg {BR SPINPE} ibi 8JMKD3MGPCW/3DT298S}</holdercode>
		<identifier>8JMKD3MGP3W34R/3S3AQHH</identifier>
		<repository>sid.inpe.br/mtc-m21c/2018/10.17.00.07</repository>
		<lastupdate>2019:01.17.15.27.28 urlib.net/www/2017/11.22.19.04 simone</lastupdate>
		<metadatarepository>sid.inpe.br/mtc-m21c/2018/10.17.00.07.57</metadatarepository>
		<metadatalastupdate>2019:01.24.16.41.40 urlib.net/www/2017/11.22.19.04 simone {D 2018}</metadatalastupdate>
		<secondarykey>INPE-18119-TDI/2820</secondarykey>
		<citationkey>Santana:2018:DaScAp</citationkey>
		<title>A data science approach to Lattes CV data analysis</title>
		<alternatetitle>Uma abordagem de ciência de dados para análise de dados de Curriculum Lattes</alternatetitle>
		<course>CAP-COMP-SESPG-INPE-MCTIC-GOV-BR</course>
		<year>2018</year>
		<date>2018-09-20</date>
		<thesistype>Dissertação (Mestrado em Computação Aplicada)</thesistype>
		<secondarytype>TDI</secondarytype>
		<numberofpages>74</numberofpages>
		<numberoffiles>1</numberoffiles>
		<size>3271 KiB</size>
		<author>Santana, Thiago Luís Viana de,</author>
		<committee>Vijaykumar, Nandamudi Lankalapalli (presidente),</committee>
		<committee>Santos, Rafael Duarte Coelho dos (orientador),</committee>
		<committee>Queiroz, Gilberto Ribeiro de,</committee>
		<committee>Chalhoub, Ezzat Selim,</committee>
		<e-mailaddress>thiagoluis@gmail.com</e-mailaddress>
		<university>Instituto Nacional de Pesquisas Espaciais (INPE)</university>
		<city>São José dos Campos</city>
		<transferableflag>1</transferableflag>
		<keywords>data analysis, data science, Lattes Platform, bibliometrics, artificial intelligence, análise de dados, ciência de dados, Plataforma Lattes, bibliometria, inteligência artificial.</keywords>
		<abstract>A Plataforma Lattes é uma das principais bases de dados da comunidade acadêmica brasileira. Esta plataforma web foi criada pelo Conselho Nacional de Desenvolvimento Tecnológico e Científico (CNPq) e é atualizada pelos próprios pesquisadores e alunos, sendo de grande valor não só para a documentação das publicações e outros dados acadêmicos sobre os usuários e sua avaliação pela comunidade, mas também para a análise de seus dados em diferentes aplicações, por exemplo, para criar relatórios, avaliar grupos de pesquisa, programas educacionais de nível superior, instituições etc. Para realizar estas análises, os currículos devem ser baixados a priori. Todos os dados sobre o CV Lattes são públicos até certo ponto: para baixar os currículos é necessário conhecer o nome completo da pessoa de interesse ou o identificador exclusivo da plataforma Lattes. Além disso, não há ferramentas nativas na plataforma que permitam a análise específica de grupos de pesquisadores e estudantes. Assim, deve-se fazer o download de um conjunto de Curriculum Lattes e extrair os dados requeridos desse conjunto. Este trabalho pretende preencher essa lacuna através de uma ferramenta que processa e limpa o conjunto de dados Lattes CVs, permitindo seu uso por usuários com pouco conhecimento de linguagens de programação. São apresentados os relatórios que esta ferramenta gera e que estão relacionados à Análise Exploratória de Dados - como relatórios gerados com dados de Lattes CV - nuvens de palavras e gráficos que exibem relação entre pesquisadores. Também é discutida a extensão dessa ferramenta com algoritmos de classificação não supervisionados, mostrando sua integração com métodos de inteligência artificial. ABSTRACT: The Lattes Platform is the de facto database of the Brazilian academic community. This web-based platform was created by the Brazilian National Council of Technological and Scientific Development (CNPq) and is updated by the researchers and students themselves, being of great value not only to store information about publications and other academic data about the users and their evaluation by the community but also for analysis of its data in different applications, such as to create reports, to evaluate research groups, higher-level educational programs and institutions. All data on the Lattes CV is public to a certain extent: CVs can be downloaded provided one knows the full name of the person of interest or its Lattes platform unique identifier. Also, there are no native tools on the platform that allow specific analysis of groups of researchers and students; one must either browse or download a set of CVs and extract the required data from that set for posterior analysis. This work intends to fill this gap by presenting a tool that processes and cleans up a Lattes CVs data set, that was developed with focus on users with little knowledge of programming. In this work we present the reports that this tool generates and that are related to Exploratory Data Analysis  such as reports generated with Lattes CV data  word clouds and graphs that exhibit relationship between researchers. This work also discusses extensions of this tool capabilities with unsupervised classification algorithms, showing its integration with artificial intelligence methods.</abstract>
		<area>COMP</area>
		<language>en</language>
		<targetfile>publicacao.pdf</targetfile>
		<usergroup>gabinete@inpe.br</usergroup>
		<usergroup>pubtc@inpe.br</usergroup>
		<usergroup>thiagoluis@gmail.com</usergroup>
		<visibility>shown</visibility>
		<copyright>urlib.net/www/2012/11.12.15.10</copyright>
		<readpermission>allow from all</readpermission>
		<documentstage>not transferred</documentstage>
		<mirrorrepository>urlib.net/www/2017/11.22.19.04.03</mirrorrepository>
		<nexthigherunit>8JMKD3MGPCW/3F2PHGS</nexthigherunit>
		<dissemination>BNDEPOSITOLEGAL</dissemination>
		<hostcollection>urlib.net/www/2017/11.22.19.04</hostcollection>
		<agreement>autorizacao.pdf .htaccess .htaccess2</agreement>
		<lasthostcollection>urlib.net/www/2017/11.22.19.04</lasthostcollection>
		<supervisor>Santos, Rafael Duarte Coelho dos,</supervisor>
		<url>http://mtc-m21c.sid.inpe.br/rep-/sid.inpe.br/mtc-m21c/2018/10.17.00.07</url>
	</metadata>
</metadatalist>